* KY法 (K-step Yard sampling methods) <-<- 詳細情報や討論の場です
インシリコデータの湯田が開発し、2008年に特許化されたデータ解析手法です。
現在展開されているデータ解析手法の機能をそのまま適用しつつ、この運用法を変えることが最大の特徴となる全く新しいデータ解析手法となります。 この結果、従来手法では成しえなかった優れた解析結果を達成する、強力なデータ解析手法となりました。
開発当初はニクラス分類手法のみでしたが、KY法の基本原理をフィッテイング(重回帰)にも適用し、フィッテイングKY法も開発されました。 現在は、ニクラス分類手法として三種類の異なるKY法(基本原理は同じであるが、判別関数の作成方法等が異なります)が開発され、 同様にフィッテイングKY法も、三種類のアプローチ手法が開発されております。
解析手法としてのパフォーマンスですが、ニクラス分類では三種類総ての手法で、殆どの場合ほぼ100%の完全分類を実現します。 また、フィッテイング(重回帰)等も三種類すべての手法で極めて高い相関係数や決定係数を実現します。 これら6種類のKY法はそれぞれ解析の特性やアルゴリズム等が異なり、それぞれの特徴が異なります。 従ってKY法は、その利用目的やIT環境に従って使い分けを行います。
KY法は他のデータサイエンス手法と比較して多数の優れた点を持ちますが、以下に三つの特徴(優れた機能)を明記致します。
1.KY法は、極めて高い分類率や相関係数/決定係数を実現
2.KY法は、サンプル数が極めて大きいデータであっても、分類率や相関係数/決定係数は低下しない
⇒「ビッグデータ」時代における適用に最適
3.KY法は、データ解析の自動化に適したアルゴリズムを有する
KY法が開発された2000年代当初は、データ解析手法としての優れた機能(ほぼ100%分類を達成)が注目されておりました。 その後ITインフラの急速な拡充と普及に伴い、データを集めやすい環境が整い、従来では扱えなかったほどのサンプル数を扱うことが可能な「ビッグデータ」 時代となってきました。 今後様々な分野でのデータ集積が進み、これらの膨大なデータを扱うためのデータサイエンス手法の展開が急務となりました。 これが、データサイエンス手法や人工知能の急速な展開や発展をもたらすことになりました。
KY法は当初のデータ解析手法としての極めて優れた機能(ほぼ100%の分類率達成、極めて高い相関係数/決定係数実現)のみではなく、極めて多数の大きなサンプル群を用いた解析でもデータ解析のパフォーマンスが低下しないという優れた特徴を持っております。 また、アルゴリズム上でデータ解析の自動化が容易であるということも、現在の「ビッグデータ」時代に最適な手法となります。
以上まとめましたようにKY法は手法の原理上、高い分類率や相関値のみならず、大量のデータにも対応できるという特性を有しております。 また、湯田が開発した「テーラーメードモデリング(Tailor Made Modeling)」技術と併用することで、 データ解析効率を一層高めることが可能で、さらに大きなビッグデータにも対応することが容易となります。